library(tidyverse)
read_csv('https://wegweisr.haim.it/Daten/breaking_bad_deaths.csv') |>
count(method, sort = TRUE) |>
head(n = 5)Sommersemester 2025
| Sitzung | Datum | Thema |
|---|---|---|
| 1 | 23.04.2025 | Einführung |
| 2 | 30.04.2025 | GLM Grundlagen |
| 3 | 07.05.2025 | Lineare Regression |
| 4 | 21.05.2025 | Mittelwertvergleiche |
| 5 | 28.05.2025 | Multiple Regression |
| 6 | 04.06.2025 | Modellannahmen |
| Sitzung | Datum | Thema |
|---|---|---|
| 7 | 11.06.2025 | Modellvorhersagen |
| 8 | 18.06.2025 | Moderationsanalyse I |
| 9 | 25.06.2025 | Moderationsanalyse II |
| 10 | 02.07.2025 | Logistische Regression |
| 11 | 09.07.2025 | Multilevel-Regression |
| 12 | 16.07.2025 | Abschluss |
Was macht dieser Code?
Was macht dieser Code?
Field, A., Miles, J., & Field, Z. (2012). Discovering statistics using R. London: Sage.
Miles, J., & Shevlin, M. (2001). Applying regression and correlation: A guide for students and researchers. London: Sage.
Darlington, R. B., & Hayes, A. F. (2016). Regression analysis and linear models: Concepts, applications, and implementation. Guilford Publications.
McElreath, R. (2020). Statistical rethinking: A Bayesian course with examples in R and Stan. CRC press. (für Interessierte)
Interpretieren Sie die folgenden Analysen:
“Die Inferenzstatistik (d.h. schließende Statistik) beschäftigt sich mit der Frage, wie man aufgrund von Stichprobendaten auf Sachverhalte in einer zugrundeliegenden Population schließen kann.” (Eid et al., 2010, p. 191)
Die Mittelwerte der einzelnen Stichproben streuen um den wahren Populationsmittelwert von 170 = Standardfehler (SE).
SE = \(SD(x)/\sqrt(n-1)\), den wir anhand einer Stichprobe berechnen können, als Schätzer für die Streuung der Stichprobenmittelwerte.
SE auf Basis unserer ersten Stichprobe: SE = \(11/\sqrt(29)\) = 2.
Rot: Normalverteilungskurve mit Mittelwert und Standardfehler aus der ersten Stichprobe.
95%-Konfidenzintervall auf Basis unserer ersten Stichprobe (M und SE): 167.8 - 175.8
Je größer die Stichprobe (n), desto kleiner der Standardfehler (SE), d.h. desto enger das Konfidenzintervall. Es gilt aber immer, bei 95%-CI enthalten langfristig 5 von 100 Intervallen nicht den Populationswert.
p(Daten|H0)
p(Daten|H1): Die Wahrscheinlichkeit, die empirischen Daten zu beoachten, wenn die Alternativhypothese gilt.
p(H0|Daten): Die Wahrscheinlichkeit für die Richtigkeit der Nullhypothese im Lichte der Daten.
p(H1|Daten): Die Wahrscheinlichkeit für die Richtigkeit der Alternativhypothese im Licht der Daten.
Der p-Wert sagt also nichts über die Wahrscheinlichkeit der Null- oder Alternativhypothese!
außerdem:
Quelle: https://www.statisticssolutions.com
Inferenzstatistik ‚funktioniert’, weil…
Quelle: https://onishlab.colostate.edu/wp-content/uploads/2019/07/which_test_flowchart.png
In der klassischen Statistikausbildung (auch bei uns) als Rezeptesammlung:
Fokus auf Unterschieden und Spezifika statt auf Gemeinsamkeiten
Viele Verfahren sind aber mindestens funktional, oft auch mathematisch äquivalent!
There has been little attempt to understand the influence on children of branded products that appear in television programs and movies. A study exposed children of two different age groups (6–7 and 11–12) in classrooms to a brief film clip. Half of each class was shown a scene from Home Alone that shows Pepsi Cola being spilled during a meal. The other half was shown a similar clip from Home Alone but without branded products. All children were invited to help themselves from a choice of Pepsi or Coke at the outset of the individual interviews.
| id | pepsi_placement | pepsi_chosen |
|---|---|---|
| 49 | 1 | 0 |
| 54 | 1 | 0 |
| 19 | 1 | 1 |
| 6 | 1 | 1 |
| 52 | 1 | 0 |
| pepsi_chosen | no_placement | placement |
|---|---|---|
| 0 | 57 | 37 |
| 1 | 43 | 63 |
| Chi2(1) | p | Cramer’s V (adj.) | Cramers_v_adjusted CI |
|---|---|---|---|
| 4.14 | 0.042 | 0.17 | (0.00, 1.00) |
| Parameter1 | Parameter2 | r | 95% CI | p |
|---|---|---|---|---|
| pepsi_placement | pepsi_chosen | 0.20 | (0.01, 0.38) | 0.042 |
Alternative hypothesis: true correlation is not equal to 0
| Parameter1 | Parameter2 | tau | z | p |
|---|---|---|---|---|
| pepsi_placement | pepsi_chosen | 0.20 | 2.03 | 0.043 |
Alternative hypothesis: true tau is not equal to 0
| Difference | 95% CI | t(103) | p | d |
|---|---|---|---|---|
| -0.20 | (-0.39, -0.01) | -2.06 | 0.042 | -0.41 |
| Parameter | Sum_Squares | df | Mean_Square | F | p | Eta2 |
|---|---|---|---|---|---|---|
| pepsi_placement | 1.03 | 1 | 1.03 | 4.23 | 0.042 | 0.04 |
| Residuals | 25.10 | 103 | 0.24 |
“The only formula you’ll ever need.” Andy Field
\[ outcome_i = Model_i + error_i \]
Frage: Wenn wir nur einen Schätzwert \(a\) für \(Y\) haben, welcher ist der beste Schätzer?
\[ Y_i = a + \epsilon_i \]
Antwort: Mittelwert \(\bar{x}\) als der beste Modellkoeffizient im Nullmodell
Problem: damit erklärt das Modell aber nichts, es fehlt eine Prädiktorvariable \(X\)
\[ Y_i = b_0 + b_1 X_i + \epsilon_i \]
\[ Y_i = b_0 + b_1 X_1 + + b_2 X_2 + b_3 X_3 + ... + \epsilon_i \]
| Parameter | Coefficient | 95% CI | t(103) | p | Std. Coef. | Fit |
|---|---|---|---|---|---|---|
| (Intercept) | 0.43 | (0.29, 0.57) | 6.24 | < .001 | 0.00 | |
| pepsi placement | 0.20 | (0.01, 0.39) | 2.06 | 0.042 | 0.20 | |
| AICc | 153.96 | |||||
| R2 | 0.04 | |||||
| R2 (adj.) | 0.03 | |||||
| Sigma | 0.49 |